iT邦幫忙

2025 iThome 鐵人賽

DAY 29
0
自我挑戰組

找工作期間不要讓自己太廢系列 第 29

DAY 29 Amazon Bedrock 模型評估

  • 分享至 

  • xImage
  •  

Amazon Bedrock - Automatic Evaluation

  • 可自動化評估模型
  • 可以使用自備的prompt dataset或內建(built-in)的prompt dataset
  • 也就準備benchmark questions與benchmark answers,將問題輸入至要評估的model,再將model生成的答案與benchmark answer一同輸入至judge model(GenAI)問這兩個答案是否相似,最後output出評估分數
  • 模型評分是透過各種統計方法計算(BERTScore、F1...)

benchmark dataset

  • 為評估語言模型性能而特別設計的資料集
  • 可以評估model準確性、速度與效率、可擴展性
  • ex: 偵測偏見或潛在歧視、企業專屬資料集

Amazon Bedrock - Human Evaluation

  • 選擇員工或Subject-Matter Expert(SME)
  • 評估方法可能有按讚、排名等
  • 可從built-in任務類型(與Automatic Evaluation相同)中選擇,或新增自訂任務

Amazon Bedrock - 自動化評估FM的指標

  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
    用於評估摘要、總結和機器翻譯系統的品質
    ROUGE-N:測量reference與生成文本之間match的N-gram數量,N-gram表示match到的文字數量
    ROUGE-L:測量reference與生成文本之間的最長共同子序列,ex 機器翻譯系統
  • BLEU(Bilingual Evaluation Understudy)
    用於評估生成文本的品質,特別適用於翻譯
    同時考慮precision並過度簡短的輸出分數會比較低
  • BERTScore
    用於衡量生成文本的語義相似度
    使用pre-trained BERT比較兩段文本的語義embedding,並計算它們的cos相似度
  • Perplexity
    衡量模型對下一個token的預測能力,數值越低代表模型表現越好

ROUGE和BLEU是單純地用"字"是否一樣,BERTScore是用"語義"相似度
當使用者輸入至GenAI時,GenAI透過以上ROUGE、BLEU、BERTScore進行評估,經統整後再回feedback回模型進行retrain

評估模型的商業指標

  • User Satisfaction:收集使用者回饋並評估其對模型回應的滿意程度
  • ARPU(Average Revenue Per User):衡量GenAI app從每位使用者身上賺取的平均收益
  • Cross-Domain Performance:測量模型在不同領域任務中的表現能力
  • Conversion Rate:評估模型在產生期望結果(如購買行為)上的表現
  • Efficiency:評估模型在計算、資源使用等方面的效率

在Bedrock的evaluations中,分為automatic與human
在automatic的部分又分為Programmatic與Model as a judge
Programmatic:僅使用模型本身與您選擇的評估指標來測量其效能
Model as a judge:利用一個預先訓練好的模型,依據您設定的評估指標,自動評估目標模型的回應品質

在Bedrock的evaluations中,分為automatic與human

在automatic的部分又分為
Programmatic:僅使用模型本身與選擇的評估指標來測量其效能
Model as a judge:利用一個預先訓練好的模型,依據設定的評估指標,自動評估目標模型的回應品質(用model去judge model )

human的部分又分為
AWS Managed work team:使用AWS的專業工作團隊,評估最多兩個模型的回應
Bring your own work team:自備的工作團隊,評估最多兩個模型的回應


上一篇
DAY 28 Amazon Bedrock - Fine Tuning
下一篇
DAY 30 Bedrock - RAG
系列文
找工作期間不要讓自己太廢30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言